دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش علم داده برای مبتدیان: یادگیری از طریق 450+ MCQ & Quiz [2023] - آخرین آپدیت

Data Science for Beginners: Learn via 450+ MCQ & Quiz [2023] new

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد. این دوره صرفا آزمون یا تمرین می باشد و ویدیو ندارد.

نمونه ویدیویی برای نمایش وجود ندارد.

توضیحات دوره: علم داده از مبتدی تا مصاحبه آماده با توضیح عمیق | شامل پرسش و پاسخ مصاحبه درک مفاهیم بنیادی علم داده توسعه مهارت در پایتون برای علم داده استفاده از روش های آماری در پیش پردازش علم داده و پاکسازی داده ها به طور موثر انجام تجزیه و تحلیل داده های اکتشافی (EDA) درک و به کارگیری مفاهیم اولیه یادگیری ماشینی C پیشها:Basic دانش ریاضی دانش برنامه نویسی پایه (اجباری نیست) یک کامپیوتر با دسترسی به اینترنت اشتیاق یادگیری

علم داده برای مبتدیان: از طریق آزمون 450+ MCQ بیاموزید - به روز شده [سپتامبر 2023]

به Data Science برای مبتدیان خوش آمدید: از طریق 450+ MCQ Quiz [2023] بیاموزید، مقدمه ای کامل به دنیای هیجان انگیز علم داده. این دوره با در نظر گرفتن افراد مبتدی کاملاً طراحی شده است، این دوره با ارائه پایه ای محکم از مفاهیم اساسی، مهارت های عملی و بینش های صنعتی، می خواهد اشتیاق شما به علم داده را برانگیزد.

بخش 1: مقدمه ای بر علم داده

درس 1.1: علم داده چیست؟

درس اول دوره "علم داده برای مبتدیان" ما یک نمای کلی از آنچه علم داده مستلزم آن است ارائه می دهد. ما به این می پردازیم که چگونه علم داده از الگوریتم ها، روش های آماری و فناوری برای استخراج بینش ارزشمند از داده ها استفاده می کند و به کسب و کارها در تصمیم گیری مبتنی بر داده کمک می کند.

نمونه MCQ:

کدام یک از موارد زیر علم داده را بهتر توصیف می کند؟

الف) مطالعه پایگاه های داده

ب) فرآیند پاکسازی داده ها

ج) استخراج بینش از داده ها

د) نوعی سخت افزار رایانه

پاسخ صحیح: ج) استخراج بینش از داده ها

توضیح: علم داده یک حوزه چند رشته ای است که از روش ها، الگوریتم ها و سیستم های علمی برای استخراج دانش و بینش از داده های ساختاریافته و بدون ساختار استفاده می کند. از تکنیک ها و نظریه های مشتق شده از زمینه های مختلف در زمینه ریاضیات، آمار، علوم کامپیوتر و علم اطلاعات استفاده می کند.

درس 1.2: نقش دانشمند داده

درس دوم ما نقش چندوجهی یک دانشمند داده را بررسی می کند. شما در مورد مسئولیت های یک دانشمند داده، که شامل فرموله کردن راه حل های مبتنی بر داده برای مشکلات تجاری، ایجاد مدل های داده، و تجسم داده ها برای درک آسان تر است، یاد خواهید گرفت.

نمونه MCQ:

کدامیک از موارد زیر مسئولیت معمولی یک دانشمند داده نیست؟

الف) توسعه مدل‌های داده

ب) عیب یابی مشکلات شبکه

ج) تجسم داده ها برای درک بهتر

د) تدوین راه حل های مبتنی بر داده برای مشکلات تجاری

پاسخ صحیح: ب) عیب یابی مشکلات شبکه

توضیح: در حالی که دانشمندان داده طیف گسترده ای از وظایف را انجام می دهند، مسئولیت های اصلی آنها حول داده ها متمرکز است. اینها ممکن است شامل توسعه مدل‌های داده، تجسم داده‌ها و فرمول‌بندی راه‌حل‌های مبتنی بر داده برای مشکلات تجاری باشد. عیب‌یابی مشکلات شبکه معمولاً وظیفه متخصصان فناوری اطلاعات یا شبکه است، نه دانشمندان داده.

درس 1.3: انواع داده

درس سوم به انواع مختلف داده‌هایی می‌پردازد که دانشمندان داده با آن‌ها سروکار دارند - داده‌های ساختاریافته، نیمه ساختاریافته و بدون ساختار. ما بررسی می کنیم که چگونه این انواع از نظر قالب، مدیریت پذیری، و بینش هایی که می توانند ارائه دهند، متفاوت هستند.

نمونه MCQ:

کدام نوع داده با فقدان قالب یا سازمان از پیش تعریف شده مشخص می شود؟

الف) داده های ساخت یافته

ب) داده های نیمه ساختار یافته

ج) داده های بدون ساختار

د) هیچ یک از موارد بالا

پاسخ صحیح: ج) داده های بدون ساختار

توضیح: داده های بدون ساختار به داده هایی اطلاق می شود که به یک مدل داده از پیش تعریف شده پایبند نیستند و به شیوه ای از پیش تعریف شده سازماندهی نشده اند. این می تواند شامل پست های رسانه های اجتماعی، فایل های صوتی، فیلم ها و موارد دیگر باشد. این رایج ترین نوع داده است، اما تجزیه و تحلیل آن نیز دشوار است.

درس 1.4: فرآیند علم داده

در این درس، کل فرآیند علم داده را پوشش می‌دهیم - از تعریف مسئله و جمع‌آوری داده‌ها گرفته تا تمیز کردن داده‌ها، تجزیه و تحلیل، ایجاد مدل، و در نهایت، استقرار و نظارت. درک این فرآیند به شما کمک می کند تا رویکرد جامع مورد نیاز برای پروژه های موفق علم داده را درک کنید.

نمونه MCQ:

کدامیک از موارد زیر یک مرحله در فرآیند علم داده نیست؟

الف) تعریف مشکل

ب) جمع آوری داده ها

ج) ایجاد یک استراتژی فروش

د) پاکسازی داده ها

پاسخ صحیح: ج) ایجاد یک استراتژی فروش

توضیح: فرآیند علم داده معمولاً شامل مراحلی مانند تعریف مسئله، جمع‌آوری داده‌ها، تمیز کردن داده‌ها، تجزیه و تحلیل، ایجاد مدل و استقرار است. در حالی که علم داده می تواند با ارائه بینش های مفید به تدوین استراتژی فروش کمک کند، "ایجاد استراتژی فروش" خود گامی در فرآیند علم داده نیست.

درس 1.5: ابزارها و کتابخانه ها برای علم داده

آخرین درس ما در این بخش ابزارها و کتابخانه های مختلفی را معرفی می کند که جزء لاینفک علم داده هستند. اینها عبارتند از Python، R، SQL و کتابخانه هایی مانند Pandas، NumPy، Matplotlib و Scikit-learn. ما همچنین به اهمیت هر یک در تجزیه و تحلیل داده، تجسم، و یادگیری ماشین اشاره می کنیم.

نمونه MCQ:

از کدام کتابخانه پایتون برای دستکاری و تجزیه و تحلیل داده ها استفاده می شود؟

الف) Matplotlib

ب) NumPy

ج) پانداها

د) در دریا

پاسخ صحیح: ج) پانداها

توضیح: پانداها یک کتابخانه محبوب پایتون است که عمدتاً برای دستکاری و تجزیه و تحلیل داده ها استفاده می شود. این ساختار داده ها و توابع مورد نیاز برای دستکاری داده های ساخت یافته را فراهم می کند. همچنین ساختارهای داده ای را برای دستکاری جداول عددی و داده های سری زمانی ارائه می دهد که آن را به ابزاری ضروری در جعبه ابزار دانشمند داده تبدیل می کند.

بخش 2: مبانی برنامه نویسی برای علم داده

درس 2.1: مبانی پایتون

اولین درس ما در بخش 2 "علوم داده برای مبتدیان" بر روی مبانی پایتون، زبان اصلی مورد استفاده در علم داده تمرکز دارد. ما اصول اولیه، از جمله متغیرها، انواع داده ها، عملگرها و توابع ساده را پوشش می دهیم و مهارت اولیه لازم برای دستکاری و تجزیه و تحلیل داده ها را در اختیار شما قرار می دهیم.

نمونه MCQ:

از چه نوع داده ای برای ذخیره سن افراد در پایتون استفاده می کنید؟

a) رشته

ب) عدد صحیح

ج) فهرست

د) فرهنگ لغت

پاسخ صحیح: ب) عدد صحیح

توضیح: در پایتون، داده‌های عددی که نیازی به اعشار ندارند، مانند سن افراد، معمولاً به عنوان یک عدد صحیح ذخیره می‌شوند. رشته‌ها برای متن استفاده می‌شوند، در حالی که فهرست‌ها و فرهنگ‌های لغت ساختارهای داده پیچیده‌تری هستند که برای ذخیره چندین مورد از داده‌ها به طور همزمان استفاده می‌شوند.

درس 2.2: ساختارهای داده پایتون

در درس 2.2، به ساختارهای داده کلیدی پایتون می پردازیم: لیست ها، تاپل ها، مجموعه ها و دیکشنری ها. ما بررسی می‌کنیم که این ساختارها چگونه داده‌ها را ذخیره می‌کنند و چه زمانی از هر نوع استفاده می‌شود، و پایه‌ای برای دستکاری پیچیده داده‌ها فراهم می‌کند.

نمونه MCQ:

کدام ساختار داده پایتون قابل تغییر است و عناصر را به صورت نامرتب ذخیره می کند؟

a) فهرست

ب) چندتایی

را تنظیم کنید

د) فرهنگ لغت

پاسخ صحیح: ج) تنظیم

توضیح: در پایتون، یک مجموعه مجموعه ای تغییرپذیر و نامرتب از عناصر منحصر به فرد است. لیست ها تغییرپذیر و مرتب هستند، تاپل ها تغییرناپذیر و مرتب هستند، در حالی که دیکشنری ها قابل تغییر، نامرتب هستند و جفت های کلید-مقدار را نگه می دارند.

درس 2.3: ساختارهای کنترل در پایتون

درس 2.3 ساختارهای کنترل را در پایتون ابهام می کند. ما شرط ها، حلقه ها و تعاریف تابع را بررسی می کنیم و به شما یاد می دهیم که چگونه جریان برنامه های پایتون خود را به طور موثر کنترل کنید.

نمونه MCQ:

کدام ساختار کنترلی پایتون برای اجرای یک بلوک کد در تعداد دفعات مشخص مناسب‌تر است؟

الف) If-Else

ب) حلقه while

c) برای حلقه

د) تابع

پاسخ صحیح: ج) برای حلقه

توضیح: در پایتون، حلقه "for" زمانی استفاده می شود که می خواهید روی یک بلوک از کد چند بار تکرار کنید. "If-else" یک دستور شرطی است، در حالی که حلقه "while" زمانی استفاده می شود که یک بلوک از کد باید اجرا شود تا زمانی که یک شرط خاص برآورده شود. توابع بلوک هایی از کد قابل استفاده مجدد هستند که وظیفه خاصی را انجام می دهند.

درس 2.4: مقدمه ای بر کتابخانه های پایتون - NumPy و پانداها

درس آخر در این بخش شما را با NumPy و Pandas، دو کتابخانه اساسی پایتون در علم داده آشنا می‌کند. توضیح می دهیم که چرا این کتابخانه ها برای کارهایی مانند دستکاری داده ها، تجزیه و تحلیل و پیش پردازش در پایتون حیاتی هستند.

نمونه MCQ:

از کدام کتابخانه پایتون برای محاسبات عددی و کار با آرایه ها استفاده می کنید؟

الف) پانداها

ب) Matplotlib

ج) NumPy

د) در دریا

پاسخ صحیح: ج) NumPy

توضیح: NumPy (Numerical Python) یک کتابخانه پایتون است که برای محاسبات عددی و کار با آرایه ها استفاده می شود. در حالی که پانداها برای دستکاری و تجزیه و تحلیل داده ها، به ویژه با داده های برچسب دار، عالی هستند، NumPy مبنای ریاضی این عملیات را تشکیل می دهد. Matplotlib و Seaborn عمدتاً برای تجسم داده ها استفاده می شوند.

بخش 3: مبانی آمار برای علم داده

درس 3.1: آمار توصیفی

درس 3.1 از دوره "علم داده برای مبتدیان" ما به آمار توصیفی می پردازد و به شما کمک می کند گرایش های مرکزی و پراکندگی داده ها را درک کنید. ما مفاهیمی مانند میانگین، میانه، حالت، محدوده و انحراف معیار را لمس می‌کنیم.

نمونه MCQ:

کدام یک از معیارهای گرایش مرکزی برای نمایش یک مجموعه داده با نقاط پرت شدید بهترین است؟

a) میانگین

ب) میانه

c) حالت

د) محدوده

پاسخ صحیح: ب) میانه

توضیح: هنگام برخورد با مجموعه داده‌هایی که حاوی مقادیر پرت شدید، میانه بهترین معیار برای سنجش گرایش مرکزی است. میانگین به مقادیر شدید حساس است، و در حالی که حالت و محدوده بینش مفیدی را ارائه می دهند، یک مقدار مرکزی برای توزیع داده ارائه نمی دهند.

درس 3.2: اقدامات گرایش مرکزی

در درس 3.2، ما بر معیارهای گرایش مرکزی تمرکز می کنیم. ما نگاهی دقیق‌تر به میانگین، میانه و حالت می‌اندازیم و در مورد چگونگی استفاده از هر معیار برای خلاصه کردن یک مجموعه داده بحث می‌کنیم.

نمونه MCQ:

کدام معیار از تمایل مرکزی بیشترین مقدار را در یک مجموعه داده نشان می دهد؟

a) میانگین

ب) میانه

c) حالت

د) واریانس

پاسخ صحیح: ج) حالت

توضیح: حالت مقداری است که بیشتر در یک مجموعه داده ظاهر می شود. میانگین نشان دهنده میانگین داده ها است، در حالی که میانه مقدار وسط است. واریانس معیاری برای پراکندگی است، نه تمایل مرکزی.

درس 3.3: معیارهای تغییرپذیری

درس 3.3 به معیارهای تغییرپذیری، مانند محدوده، واریانس و انحراف معیار می پردازد. این اقدامات بینش‌هایی را درباره گسترش و توزیع داده‌های شما، که در علم داده بسیار مهم هستند، ارائه می‌دهد.

نمونه MCQ: کدام معیار تغییرپذیری، جذر واریانس در یک مجموعه داده را ارائه می دهد؟

الف) محدوده

ب) واریانس

ج) انحراف معیار

د) میانگین

پاسخ صحیح: ج) انحراف معیار

توضیح: انحراف معیار معیاری از تغییرپذیری است که جذر واریانس را فراهم می کند. میانگین فاصله بین هر نقطه داده و میانگین را اندازه گیری می کند. محدوده تفاوت بین مقادیر حداکثر و حداقل را ارائه می دهد، در حالی که واریانس نحوه پخش نقاط داده در اطراف میانگین را اندازه می گیرد.

درس 3.4: مبانی احتمال

درس آخر ما در این بخش اصول اولیه احتمال را پوشش می دهد، یک مفهوم اساسی در آمار استنباطی و یادگیری ماشین. ما قوانین احتمال را بررسی می کنیم و توزیع های رایج را مورد بحث قرار می دهیم.

نمونه MCQ: اگر دو رویداد مستقل باشند، احتمال وقوع هر دو برابر است:

الف) مجموع احتمالات فردی آنها

ب) صفر

ج) حاصل ضرب احتمالات فردی آنها

د) یک

پاسخ صحیح: ج) حاصل ضرب احتمالات فردی آنها

توضیح: اگر دو رویداد مستقل باشند، احتمال وقوع هر دو حاصل ضرب احتمالات فردی آنهاست. این به عنوان قانون ضرب برای رویدادهای مستقل در نظریه احتمال شناخته می شود.

بخش 4: پیش پردازش و تمیز کردن داده ها

درس 4.1: مقابله با داده های از دست رفته

درس 4.1 از دوره آموزشی "علم داده برای مبتدیان"، تکنیک هایی را برای مقابله با داده های از دست رفته، یک مسئله رایج در مجموعه داده های دنیای واقعی، مورد بحث قرار می دهد. ما در مورد استراتژی هایی مانند مدل های حذف، انتساب و پیش بینی صحبت می کنیم.

نمونه MCQ:

کدام تکنیک برای مدیریت داده های از دست رفته شامل پر کردن مقدار از دست رفته با معیاری از تمایل مرکزی مانند میانگین، میانه یا حالت است؟

الف) حذف

ب) انتساب

ج) مدل پیش‌بینی

د) تبدیل داده

پاسخ صحیح: ب) انتساب

توضیح: Imputation تکنیکی برای مدیریت داده های از دست رفته است، که در آن مقادیر از دست رفته جایگزین یا با یک مقدار جایگزین پر می شوند. یکی از روش‌های متداول استفاده از اندازه‌گیری تمایل مرکزی مانند میانگین، میانه یا حالت موارد کامل برای مقادیر از دست رفته است.

درس 4.2: تکنیک های تبدیل داده

در درس 4.2، تکنیک‌های تبدیل داده‌ها را بررسی می‌کنیم که به مناسب کردن داده‌های شما برای تجزیه و تحلیل کمک می‌کند. ما روش‌هایی مانند عادی‌سازی، استانداردسازی و binning را مورد بحث قرار می‌دهیم.

نمونه MCQ:

کدام تکنیک تبدیل داده ویژگی‌ها را مجدداً مقیاس می‌دهد تا بین حداقل و حداکثر مقدار معین، اغلب بین صفر و یک قرار گیرند؟

الف) بنینگ

ب) استانداردسازی

ج) عادی سازی

د) تشخیص نقاط پرت

پاسخ صحیح: ج) عادی سازی

توضیح: عادی سازی یک تکنیک تبدیل داده است که ویژگی ها را به یک محدوده ثابت، معمولاً بین صفر و یک، تغییر مقیاس می دهد. زمانی استفاده می شود که الگوریتم بر اساس روابط وزنی تشکیل شده از داده های ورودی پیش بینی کند. Binning روشی برای طبقه‌بندی داده‌ها است، در حالی که استانداردسازی معمولاً داده‌ها را مجدداً مقیاس می‌دهد تا میانگین صفر و انحراف استاندارد یک داشته باشند.

درس 4.3: مدیریت موارد پرت

درس 4.3 بر مدیریت مقادیر پرت متمرکز است، مقادیری که به طور قابل توجهی با سایر مقادیر موجود در مجموعه داده متفاوت است. ما در مورد تکنیک‌های تشخیص پرت و نحوه مدیریت آنها برای مدل‌سازی پیش‌بینی بهتر بحث می‌کنیم.

نمونه MCQ:

کدام روش آماری معمولاً برای تشخیص نقاط پرت در یک مجموعه داده استفاده می‌شود؟

a) میانگین

ب) انحراف معیار

ج) باکس پلات د) میانه

پاسخ صحیح: ج) باکس پلات

توضیح: Box-plot یک نمودار آماری مفید برای شناسایی نقاط پرت در یک مجموعه داده است. این محدوده بین چارکی، میانه و نقاط پرت بالقوه را در یک تجسم واحد نشان می دهد. میانگین و میانه معیارهای گرایش مرکزی هستند و ممکن است تحت تأثیر عوامل پرت باشند، در حالی که انحراف معیار معیاری برای تغییرپذیری است.

درس 4.4: عادی سازی و استانداردسازی داده ها

درس آخر ما در این بخش به دو تکنیک ضروری پیش پردازش داده ها می پردازد: عادی سازی و استانداردسازی. درک این تکنیک‌ها به شما کمک می‌کند تا داده‌ها را برای الگوریتم‌های یادگیری ماشینی به‌طور مؤثرتر آماده کنید.

نمونه MCQ:

کدام تکنیک پیش پردازش داده ها داده ها را به میانگین صفر و انحراف استاندارد یک تبدیل می کند؟

الف) بنینگ

ب) عادی سازی

ج) استانداردسازی

د) تشخیص نقاط پرت

پاسخ صحیح: ج) استانداردسازی

توضیح: استانداردسازی یک تکنیک پیش پردازش داده است که مقادیر بردار ویژگی را طوری تنظیم می کند که میانگین آنها صفر و انحراف استاندارد یک باشد. اغلب زمانی استفاده می شود که الگوریتمی که قصد استفاده از آن را دارید فرض می کند که داده های شما به طور معمول توزیع شده است.

بخش 5: مقدمه ای بر تجزیه و تحلیل داده های اکتشافی (EDA)

درس 5.1: EDA چیست؟

در درس 5.1 دوره "علم داده برای مبتدیان"، تجزیه و تحلیل داده های اکتشافی (EDA) را معرفی می کنیم. ما در مورد چگونگی استفاده از EDA برای تجزیه و تحلیل و خلاصه کردن مجموعه داده‌ها، اغلب با استفاده از روش‌های بصری، قبل از مدل‌سازی رسمی یا آزمایش فرضیه بحث می‌کنیم.

نمونه MCQ:

هدف اولیه تجزیه و تحلیل داده های اکتشافی چیست؟

a) برای پاک کردن داده ها

ب) برای نتیجه گیری نهایی در مورد داده ها

ج) برای درک ساختار داده و استخراج بینش

د) برای پیاده سازی مدل های یادگیری ماشین

پاسخ صحیح: ج) برای درک ساختار داده و استخراج بینش

توضیح: هدف اصلی تجزیه و تحلیل داده های اکتشافی (EDA) درک ساختار داده، استخراج بینش و شناسایی متغیرهای مهمی است که برای مدل سازی پیش بینی استفاده می شود. EDA برای خلاصه کردن ویژگی‌های اصلی یک مجموعه داده استفاده می‌شود و اغلب این خلاصه را برای درک بهتر تصویرسازی می‌کند.

درس 5.2: مبانی تجسم داده

در درس 5.2، به اصول تجسم داده ها، یک جزء مهم EDA، می پردازیم. ما انواع مختلفی از نمودارها و نمودارهایی را که برای نمایش داده‌ها استفاده می‌شوند، مانند نمودارهای میله‌ای، هیستوگرام، نمودارهای جعبه، و نمودارهای پراکنده بررسی می‌کنیم.

نمونه MCQ:

کدام نوع نمودار برای تجسم توزیع یک متغیر منفرد مناسب‌تر است؟

a) نمودار میله ای

ب) طرح پراکندگی

ج) هیستوگرام

د) نمودار دایره ای

پاسخ صحیح: ج) هیستوگرام

توضیح: یک هیستوگرام برای نشان دادن توزیع یک متغیر منفرد استفاده می شود. داده ها را در سطل ها گروه بندی می کند و تعداد مشاهدات در هر سطل را ارائه می دهد. در مقابل، یک نمودار میله‌ای گروه‌های مختلف را مقایسه می‌کند، یک نمودار پراکندگی رابطه بین دو متغیر را بررسی می‌کند، و یک نمودار دایره‌ای روابط جزء به کل را نشان می‌دهد.

درس 5.3: تجزیه و تحلیل همبستگی

درس 5.3 بر تحلیل همبستگی متمرکز است، روشی که برای ارزیابی قدرت رابطه بین دو متغیر کمی استفاده می‌شود. درک این رابطه می تواند بینش مهمی را در مورد مجموعه داده شما ارائه دهد.

نمونه MCQ:

کدام مقدار ضریب همبستگی یک رابطه خطی منفی قوی بین دو متغیر را نشان می دهد؟

a) -0.9

ب) 0.2

c) 0

د) 0.9

پاسخ صحیح: الف) -0.9

توضیح: ضریب همبستگی، که اغلب با r نشان داده می شود، از 1- تا 1 متغیر است. همبستگی 1- نشان دهنده یک رابطه منفی قوی، همبستگی 1 نشان دهنده یک رابطه مثبت قوی، و همبستگی 0 نشان دهنده عدم خطی است. ارتباط. بنابراین، -0.9 یک رابطه خطی منفی قوی را نشان می دهد.

درس 5.4: تجزیه و تحلیل پرت

درس آخر ما در این بخش، درس 5.4، به تجزیه و تحلیل پرت می پردازد. نقاط دورافتاده می توانند به طور قابل توجهی بر مدل های شما تأثیر بگذارند و شناسایی آنها یک گام مهم در فرآیند EDA است. ما تکنیک‌هایی را برای شناسایی و رسیدگی به این ناهنجاری‌ها در مجموعه داده شما مورد بحث قرار می‌دهیم.

نمونه MCQ:

کدام یک از معیارهای گرایش مرکزی در برابر نقاط پرت در یک مجموعه داده مقاوم‌تر است؟

a) میانگین

ب) میانه

c) حالت

د) محدوده

پاسخ صحیح: ب) میانه

توضیح: میانه، مقدار میانی در یک مجموعه داده زمانی که به صورت صعودی مرتب می شود، در برابر مقادیر پرت یا شدید در یک مجموعه داده مقاوم ترین است. میانگین به ویژه به نقاط پرت حساس است، در حالی که اگر نقطه پرت بیشتر اتفاق بیفتد، حالت می تواند تحت تأثیر قرار گیرد. محدوده معیاری برای پراکندگی است، نه تمایل مرکزی.

بخش 6: مقدمه ای بر یادگیری ماشین

درس 6.1: یادگیری ماشینی چیست؟

درس 6.1 دوره "علم داده برای مبتدیان" مقدمه ای بر یادگیری ماشین ارائه می دهد. ما درباره چیستی یادگیری ماشین، نحوه استفاده از آن و انواع مشکلاتی که می تواند حل کند صحبت می کنیم.

نمونه MCQ:

کدام نوع الگوریتم یادگیری ماشینی به مدل اجازه می دهد تا بر اساس قرار گرفتن در معرض داده های جدید در طول زمان، یاد بگیرد و پیش بینی کند؟

الف) یادگیری تحت نظارت

ب) یادگیری بدون نظارت

ج) یادگیری تقویتی

د) آموزش انتقال

پاسخ صحیح: ج) یادگیری تقویتی

توضیح: یادگیری تقویتی نوعی از یادگیری ماشینی است که در آن یک عامل یاد می گیرد با انجام برخی اقدامات و دریافت پاداش یا جریمه تصمیم گیری کند. این یک روش یادگیری است که به طور مکرر بر اساس داده های جدید در طول زمان اصلاح می شود. یادگیری تحت نظارت به داده‌های برچسب‌گذاری شده نیاز دارد، یادگیری بدون نظارت الگوهای پنهان را در داده‌های بدون برچسب پیدا می‌کند و یادگیری از مدل‌های از پیش آموزش‌دیده برای کارهای مشابه استفاده می‌کند.

درس 6.2: انواع یادگیری ماشین - یادگیری تحت نظارت و بدون نظارت

در درس 6.2، دو نوع اصلی یادگیری ماشین را عمیق‌تر می‌کنیم: یادگیری تحت نظارت و بدون نظارت. ما ویژگی ها، کاربردها و تفاوت های آنها را مورد بحث قرار می دهیم.

نمونه MCQ:

کدام نوع یادگیری ماشینی شامل یادگیری مدل از داده‌های برچسب‌گذاری شده است؟

الف) یادگیری تحت نظارت

ب) یادگیری بدون نظارت

ج) یادگیری نیمه نظارتی

د) یادگیری تقویتی

پاسخ صحیح: الف) یادگیری تحت نظارت

توضیح: در یادگیری نظارت شده، مدل‌ها با استفاده از داده‌های برچسب‌گذاری شده، یعنی داده‌های ورودی که در آن خروجی صحیح مشخص است، آموزش داده می‌شوند. مدل از این داده ها می آموزد و سپس آنچه را که آموخته است در داده های جدید و دیده نشده اعمال می کند. یادگیری بدون نظارت شامل یادگیری از داده های بدون برچسب است، در حالی که آموزش نیمه نظارت از ترکیبی از داده های برچسب دار و بدون برچسب استفاده می کند. یادگیری تقویتی شامل یادگیری یک عامل از پیامدهای اعمال خود می شود.

درس 6.3: بیش از حد و کم تناسب

درس 6.3 بر نصب بیش از حد و عدم تناسب، دو مسئله رایج در یادگیری ماشین تمرکز دارد. درک این مفاهیم با متعادل کردن تعصب و واریانس به بهبود مدل‌های شما کمک می‌کند.

نمونه MCQ:

در زمینه یادگیری ماشین، چه مشکلی زمانی رخ می‌دهد که مدل در داده‌های آموزشی خوب عمل کند اما در داده‌های دیده نشده ضعیف عمل کند؟

الف) بیش از حد برازش

ب) کمبود

ج) تعصب

د) واریانس

پاسخ صحیح: الف) تطبیق بیش از حد

توضیح: تطبیق بیش از حد در یادگیری ماشین زمانی اتفاق می‌افتد که یک مدل داده‌های آموزشی را خیلی خوب یاد می‌گیرد و نویز را همراه با الگوهای زیربنایی ضبط می‌کند. در حالی که روی داده های آموزشی عملکرد خوبی دارد، اما روی داده های دیده نشده ضعیف عمل می کند زیرا اساساً مجموعه آموزشی را به جای تعمیم از آن حفظ کرده است. عدم تناسب زمانی است که یک مدل نتواند روند اساسی داده ها را ثبت کند. سوگیری فرضیات ساده‌کننده‌ای است که مدل ایجاد می‌کند، در حالی که واریانس مقداری است که پیش‌بینی‌های مدل در صورت آموزش روی مجموعه آموزشی متفاوت تغییر می‌کند.

درس 6.4: معیارهای ارزیابی برای مدل‌های یادگیری ماشینی

درس آخر ما در این بخش شما را با معیارهای ارزیابی مدل های یادگیری ماشین آشنا می کند. ما انواع مختلفی از معیارهای مورد استفاده در مسائل طبقه‌بندی و رگرسیون را مورد بحث قرار می‌دهیم، مانند دقت، دقت، یادآوری، و میانگین مربعات خطا.

نمونه MCQ:

کدام معیار برای ارزیابی یک مدل یادگیری ماشین برای یک مشکل طبقه‌بندی باینری مناسب‌تر است، جایی که پیش‌بینی صحیح کلاس مثبت مهم‌تر است؟

الف) دقت

ب) دقت

ج) فراخوانی

د) میانگین مربعات خطا

پاسخ صحیح: ب) دقت

توضیح: زمانی که هزینه مثبت کاذب بالا باشد، دقت معیار مناسبی است. درصد مشاهدات مثبت پیش بینی شده صحیح را از مجموع موارد مثبت پیش بینی شده اندازه گیری می کند. دقت، صحت کلی مدل را اندازه‌گیری می‌کند، یادآوری (یا حساسیت) توانایی یک مدل را برای یافتن تمام موارد مرتبط اندازه‌گیری می‌کند، و میانگین مربعات خطا معمولاً برای مشکلات رگرسیون استفاده می‌شود، نه طبقه‌بندی.

قالب دوره:

این دوره آموزشی "علم داده برای مبتدیان" از فرمت ترکیبی پیروی می کند و محتوا از طریق درس های ویدیویی جذاب، پروژه های عملی و ارزیابی های مکرر ارائه می شود. یکی از مؤلفه های مهم این دوره، سؤالات چند گزینه ای (MCQ) است که برای تقویت مفاهیم تدریس شده در هر واحد طراحی شده است. این MCQها به عنوان نقاط بازرسی برای درک عمل می کنند و به شما امکان می دهند به طور منظم پیشرفت و درک خود را ارزیابی کنید.

چه کسی باید این دوره را بگذراند؟

چه دانشجو باشید، چه حرفه ای که به دنبال انتقال به حرفه خود هستید یا یک حرفه ای باتجربه که به دنبال تقویت مهارت های خود هستید، هر کسی که به علم داده علاقه دارد می تواند این دوره را بگذراند. "علم داده برای مبتدیان" به ویژه مفید است اگر:

دانش آموزانی که می خواهند سفری به دنیای هیجان انگیز علم داده را آغاز کنند.
افراد حرفه ای در رشته های مختلف به دنبال انتقال به نقش مبتنی بر داده هستند.
هدف متخصصان باهوش داده، به روز رسانی دانش خود و همگام شدن با آخرین روندها است.

چرا باید این دوره را انتخاب کنم؟

"علم داده برای مبتدیان" دوره ای است که مبانی علم داده تا موضوعات پیشرفته را پوشش می دهد. دلایل انتخاب این رشته عبارتند از:

برنامه درسی جامع: این دوره‌ها موضوعاتی از علم داده مقدماتی تا یادگیری ماشین را پوشش می‌دهند و درک جامعی از این زمینه ارائه می‌دهند.
آموزش عملی: همراه با درک نظری، این دوره بر یادگیری عملی از طریق مطالعات موردی و پروژه های واقعی تمرکز دارد.
ارزیابی: MCQهای منظم درک و حفظ شما از موضوعات تحت پوشش را اندازه گیری می کنند.
مربیان خبره: از مربیان خبره ای که متخصص صنعت در علم داده هستند، بیاموزید.
انعطاف‌پذیری: با سرعت خود بیاموزید، مفاهیم را دوباره مرور کنید و درک خود را افزایش دهید.

سوالاتی که به طور مرتب به روز می شوند:

در زمینه دائماً در حال تغییر علم داده، مهم است که به روز بمانید. بنابراین، ما معتقد به به روز و مرتبط نگه داشتن محتوای دوره، به ویژه MCQ هستیم. این شما را قادر می سازد جدیدترین مفاهیم، تکنیک ها و ابزارهای علم داده را بیاموزید. "علم داده برای مبتدیان" متعهد است که با به روز رسانی منظم سوالات، بهترین تجربه یادگیری را برای شما فراهم کند.

علم داده برای مبتدیان طیفی از موضوعات، از مبانی علم داده و برنامه نویسی پایتون گرفته تا آمار، پیش پردازش داده ها، تجزیه و تحلیل داده های اکتشافی و یادگیری ماشین را پوشش می دهد. ما این موضوعات پیچیده را به درس‌های قابل فهم تقسیم می‌کنیم که با آزمون‌های جذاب و سؤالات چند گزینه‌ای تکمیل می‌شوند.

آنچه این دوره را متمایز می کند تمرکز آن بر یادگیری فعال است. برای هر فصل، مجموعه‌ای از سؤالات چند گزینه‌ای ایجاد کرده‌ایم که برای آزمایش درک شما و تشویق تفکر انتقادی طراحی شده‌اند. هر سوال همراه با توضیح دقیق پاسخ صحیح است، که تضمین می کند نه تنها اصول علم داده را یاد می گیرید، بلکه اصول علم داده را نیز درک می کنید.

این دوره با مقدمه ای بر علم داده آغاز می شود که در آن شما با نقش ها و مسئولیت های یک دانشمند داده، انواع داده ها و فرآیندهای علم داده آشنا می شوید. از آنجا، ما اصول برنامه نویسی پایتون، یک زبان محبوب برای علم داده، و به دنبال آن مفاهیم مهم در آمار، ستون فقرات هر حرفه علم داده را بررسی می کنیم.

این سفر در تئوری متوقف نمی شود. علم داده برای مبتدیان به بررسی عملی پیش پردازش و تمیز کردن داده ها می پردازد، که یک مهارت حیاتی برای هر دانشمند مشتاق داده است. سپس، نکات و نکات تحلیل داده های اکتشافی، از جمله تجسم داده ها و تجزیه و تحلیل همبستگی را بررسی خواهید کرد.

در نهایت، ما شما را با زمینه جذاب یادگیری ماشینی آشنا می‌کنیم، جایی که انواع آن، مفهوم بیش‌برازندگی و عدم تناسب، و معیارهای مهم برای ارزیابی مدل‌های یادگیری ماشین را خواهید فهمید.

سوالات متداول علم داده (سؤالات متداول):

1. علم داده چیست؟

علوم داده یک حوزه بین رشته ای است که از روش ها، فرآیندها، الگوریتم ها و سیستم های علمی برای استخراج دانش و بینش از داده های ساختاریافته و بدون ساختار استفاده می کند. این شامل ترکیبی از ابزارهای مختلف، الگوریتم‌ها و اصول یادگیری ماشین برای کشف الگوهای پنهان در داده‌های خام است.

2. دانشمند داده کیست؟

یک دانشمند داده حرفه ای است که از تکنیک های آماری و مهارت های برنامه نویسی برای به دست آوردن بینش از مقادیر زیادی داده استفاده می کند. شما داده ها را سازماندهی، پردازش و تجزیه و تحلیل می کنید تا به شرکت ها در تصمیم گیری آگاهانه کمک کنید.

3. فرآیند علم داده چیست؟

فرایند علم داده شامل چندین مرحله است، از جمله:

جمع آوری داده ها
پاکسازی و پیش پردازش داده
کاوش و تجسم داده
مدل سازی
ارزیابی و تفسیر نتایج
استقرار و نظارت مدل

4. چه ابزارها و کتابخانه هایی در علم داده مهم هستند؟

ابزارها و کتابخانه‌های متعددی توسط دانشمندان داده وجود دارد، از جمله Python، R، SQL، Hadoop، Tableau، و کتابخانه‌هایی مانند NumPy، Pandas، Matplotlib، Seaborn، Scikit-learn، TensorFlow و موارد دیگر.

5. چه نوع داده هایی در علم داده استفاده می شود؟

در علم داده، از انواع داده های ساخت یافته و بدون ساختار استفاده می شود. داده های ساختاریافته، مانند داده های اکسل، سازماندهی شده و به راحتی قابل درک هستند. داده‌های بدون ساختار سازمان‌دهی نشده‌اند و شامل پست‌های رسانه‌های اجتماعی، ویدیوها، نظرات مشتریان و موارد دیگر می‌شود.

6. چرا پایتون به طور گسترده در علم داده استفاده می شود؟

Python به دلیل سادگی و کتابخانه های علوم داده گسترده ای که پشتیبانی می کند در علم داده محبوب است. کتابخانه‌هایی مانند NumPy، Pandas و Matplotlib ابزارهای عالی برای کار در علم داده هستند.

7. یادگیری ماشینی چیست؟

یادگیری ماشین، زیرمجموعه ای از علم داده، یک روش تجزیه و تحلیل داده است که ساخت مدل های تحلیلی را خودکار می کند. از الگوریتم‌هایی استفاده می‌کند که به‌طور مکرر از داده‌ها یاد می‌گیرند تا بینش‌های پنهان را بیابند، بدون اینکه برنامه‌نویسی صریح به جایی که رایانه به آن نگاه کند.

8. انواع یادگیری ماشینی چیست؟

سه نوع اصلی یادگیری ماشین وجود دارد: یادگیری نظارت شده (که در آن یک مدل از داده های برچسب دار یاد می گیرد)، یادگیری بدون نظارت (که در آن مدل از داده های بدون برچسب یاد می گیرد) و یادگیری تقویتی (که در آن مدل از طریق تعامل با آن ها یاد می گیرد. محیط آن).

9. تجزیه و تحلیل داده های اکتشافی (EDA) چیست؟

تحلیل داده های اکتشافی رویکردی است که مجموعه داده ها را برای خلاصه کردن ویژگی های کلیدی، اغلب با استفاده از روش های بصری، تجزیه و تحلیل می کند. برای درک داده ها، دریافت زمینه آن و سپس ایجاد فرضیه هایی که می تواند در یادگیری ماشین مفید باشد استفاده می شود.

10. محتوای "علم داده برای مبتدیان" هر چند وقت یکبار به روز می شود؟

دوره "علم داده برای مبتدیان" به طور مرتب با جدیدترین مفاهیم، تکنیک ها و ابزارهای صنعت علم داده، از جمله MCQها به روز می شود. به این ترتیب شما همیشه جدیدترین مطالب را یاد خواهید گرفت.

علم داده برای مبتدیان فقط یک دوره آموزشی نیست. این گامی به سوی دنیای همیشه در حال تغییر علم داده است. این جامعه ای از دانش آموزانی مانند شما است که مشتاق تبدیل داده ها به دانش هستند. و مهمتر از همه، این راهی برای آماده شدن برای مصاحبه برای اولین نقش خود به عنوان یک دانشمند داده است.

همین امروز در Data Science برای مبتدیان ثبت نام کنید و سفر علم داده خود را شروع کنید!

تمرین ها و آزمونها

تست های تمرینی Practice Tests

بخش 1: مقدمه ای بر علم داده Section 1: Introduction to Data Science
بخش 2: مبانی برنامه نویسی پایتون برای علم داده Section 2: Basics of Python Programming for Data Science
بخش 3: مبانی آمار برای علم داده Section 3: Basics of Statistics for Data Science
بخش 4: پیش پردازش و پاکسازی داده ها Section 4: Data Preprocessing and Cleaning
بخش 5: مقدمه ای بر تجزیه و تحلیل داده های اکتشافی (EDA) Section 5: Introduction to Exploratory Data Analysis (EDA)
بخش 6: مقدمه ای بر یادگیری ماشین Section 6: Introduction to Machine Learning